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摘 要 : 数 独 有 唯一 解 ， 回 溯 法 可 以 保证 获得 正确 结果 。 为 了 提高 回溯 法 求解 效率 ， 向 前 搜索 用 最 基础 的 人 工 策略 
进行 求解 ， 这 样 只 需要 两 三 个 正确 的 候选 数 就 可 求解 成 功 。 基 础 人 工 策略 求解 的 结果 分 为 求解 成 功 、 求 解 失败 和 求 

解 不 确定 三 种 情况 ， 只 有 在 求解 不 确定 时 才 继 续 向 前 搜索 ， 从 而 达到 高 效 剪 枝 的 目的 ; 同时 ， 在 算法 实施 方面 采用 
大 量 位 运算 。 大 量 9*9 数 独 的 实验 结果 表明 对 于 绝 大 部 分 数 独 ， 平 均 计算 时 间 不 超过 0.15 ms， 对 于 那些 极端 困难 的 

数 独 平均 求解 时 间 为 2 ms; 另外 ， 求 解 一 个 16*16 数 独 的 平均 时 间 为 224 ms。 通 过 实验 还 发 现 17 个 提示 数 的 9*9 

数 独 数据 集 在 各 方面 具有 较 好 的 分 散 性 ， 建 议 作为 标准 测试 用 数据 集 。 

关键 词 : 数 独 ; 回溯 法 ; 人 工 策 略 ; 计算 时 间 

中 图 分 类 号 : TP301.5 doi: 10.19734/j.issn.1001-3695.2018.08.0539 


Sudoku backtracking algorithm with rule-base strategies 


Jiang Shunliang, Tang Yiling, Xu Shaoping, Ye Famao 
(Dept. of Computer Science, Nanchang University, Nanchang 330031, China) 


Abstract: Sudoku has unique solution. Backtracking can guarantee the correct result. In order to improve the efficiency of 
backtracking method, Sudoku is solved by the most basic rule-base strategies during searching, only two or three correct 
candidates are needed to solve successfully. When the Sudoku is solved by the basic rule-base strategies, the returning result 
is one of 3 cases, 1. e. the success, the failure, and the uncertainty. Only when the result is uncertain, the search is continued, 
as a result, the efficient pruning is achieved. Meanwhile, a number of bit operations are used in the algorithm 
implementation. A large number of 9x9 Sudoku experiments showed that the average calculation time is less than 0.1S5ms 
for most Sudoku and 2ms for those extremely difficult Sudoku. In addition, the average time to solve a 16x16 Sudoku is 
224ms. The 9x9 Sudoku dataset with 17 cues is recommended as a standard test dataset due to its diversity. 
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0 引言 UCLA 的 Chi 比较 了 3 种 求解 方法 ， 其 中 的 回溯 法 计算 时 间 
| 已 经 达到 平均 7~9 mst91。 
数 独 不 仅仅 是 风靡 世界 的 益 智 填 数 游戏 ， 而 且 已 经 渗透 提高 数 独 求解 的 回溯 法 效率 主要 在 于 提高 剪 枝 的 效率 
到 多 学 科 领 域 0 9。 依据 数 独 的 数据 分 布 特点 ,， 数 独 在 图 像 数 [1115]， 中 国学 者 利用 信息 炉 对 候选 数 进行 挑选 由， 略微 超过 
据 隐 藏 帆 \、 秘 密 图 像 共 享 外 和 数字 图 像 置 乱 技 术 中 等 方面 有 很 了 UCLA 的 Chi 的 计算 效率 0519。 肖 华 勇 利用 最 基础 的 人 工 
好 的 应 用 。 由 于 与 拉丁 方 极 其 相似 ， 数 独 在 均匀 设计 有 独特 求解 策略 从 最 少 候选 数 单元 出 发 进行 回调 也 达到 了 不 错 的 计 
的 优势 内 。 近 几 年 ， 有 些 学 者 开始 将 数 独 引 入 到 人 工 神 经 网 算 效 率 051。 现 有 论文 的 回溯 法 有 几 个 缺点 ， 第 一 ， 没 有 很 好 
络 领域 ， 例 如 ， 构 造 可 以 从 稀疏 的 已 知 数字 恢复 其 他 数字 的 地 利用 数 独 求解 的 特点 进行 算法 的 设计 ， 数 独 有 很 多 本 身 独 
神经 网 络 ， 从 而 进行 数 独 关联 存储 的 技术 56; 结合 数 独 游戏 ， 有 的 一 些 特 点 ， 如 何 好 好 地 利用 现 有 的 人 工 求解 策略 都 没有 
澳大利亚 学 者 研究 了 神经 网 络 的 技巧 表达 和 获取 技术 四; 在 涉及 60147193， 只 是 对 搜索 前 进 时 选择 什么 样 的 单元 0729 或 选 
模拟 式 神经 网 络 方面 , 构造 可 以 学 习 数 独 规则 的 神经 网 络 中 。 择 什 么 样 的 候选 数 0 进 行 探讨 ， 文 献 [15] 也 只 是 简单 地 用 基 
因此 ， 对 数 独自 身 的 研究 具有 有 很 好 的 学 术 价值 。 直 到 近 几 出 人 工 求 解 策略 对 候选 数 进行 筷 选 ， 并 没有 在 搜索 
年 , 才 确 信 17 个 已 知 数 的 数 独 是 最 少 已 知 数 的 四。 有 学 者 研 进行 求解 或 者 及 时 判断 当前 解 不 合格 从 而 达到 高 效 的 剪 枝 ; 
究 了 特殊 数 独 的 NP 复杂 性 问题 站 ， 对 数 独 与 汉密尔顿 回路 第 二 ， 数 独 是 一 种 特有 的 数据 结构 ， 如 何 高 效 地 组 
之 间 的 关系 也 进行 了 研究 00。 其 他 的 研究 集中 在 数 独 求解 这 而 提高 算法 效率 都 没有 涉及 ， 可 以 肯定 现 有 回溯 法 汞 
方面 (0111， 因 为 它 是 数 独 生成 和 数 独 难度 计算 的 基础 U7。 有 间 还 有 很 大 的 减少 空间 ; 第 三 ， 没 有 标准 的 测试 数据 集 ， 大 
大 量 数 独 求解 的 进化 类 算法 被 开发 出 来 3 外 ， 文 献 [18] 对 这 部 分 是 从 网 站 收集 一 些 数据 0517191， 或 者 只 用 几 个 测试 用 例 


| 


中 


些 算 法 进行 了 较为 全 面 的 比较 ， 还 有 不 少数 学 优化 和 搜索 技 ”的 05。 
术 用 于 数 独 求解 n0%! 时 ， 所 有 这 两 类 方法 的 缺点 是 不 能 确保 求 本 文 旨 在 改进 现 有 数 独 求解 回溯 法 的 计算 效率 。 算 法 思 
解 成 功 。 其 实 ， 这 些 方法 的 计算 效率 还 :不 如 回 浏 法 0 想 得 益 于 数 独 方面 非常 活跃 的 Andrew Stuart 发 现 的 一 个 数 
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独特 点 中， 即 绝 大 部 分 数 独 只 要 猜 对 了 一 两 个 数据 就 可 以 用 
最 基础 的 人 工 策略 求解 成 功 。 因 此 回溯 法 搜索 前 进 时 ， 
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但 对 于 不 大 于 20x20 数 独 是 没 问 题 的 ，5)int popbit[1<<9]， 


用 最 


基础 的 人 工 策 略 进行 求解 ， 可 


浅 ， 从 而 达到 高 效 剪 校 的 目的 。 另 儿 
能 采用 位 运算 ， 通 过 这 两 方面 


以 预期 这 样 的 搜索 深度 会 比较 
， 在 算法 实施 方面 尽 可 
的 改进 ,在 三 种 包含 50 000 个 


例子 的 数据 集 上 的 平均 求解 时 间 不 到 0.1 ms， 顺 便 给 出 了 标 
准 测试 数据 集 的 建议 。 


1 ”数据 结构 及 基础 算法 的 实现 


为 了 叙述 方便 ， 先 定义 几 个 数 独 的 习惯 
共有 81 个 单元 格 、9 行 、9 列 、 


j 词 。 标 准 数 独 
9 宫 ( 即 3x3 的 九宫 格 ， 本 


富 蔡 代 )， 因 


文 


此 有 27 个 块 (9 行 9 列 9 宫 )， 要 用 1 到 9 


填 入 每 个 空 单元 格 中 ， 使 每 个 块 中 包含 不 重复 的 数字 ， 同 时 


填 法 是 唯一 


的 。 未 确定 的 单元 格 中 还 可 以 填 入 的 数字 叫 “ 候 


选 数 ”。 数 独 开 始 时 有 不 少 于 17 个 单元 格 确定 了 数字 ， 此 时 


的 数 独 叫 “ 初 盘 ”， 


正确 填 完 后 叫 “ 终 答 2 


C 语言 


的 位 运算 效率 较 高 ， 


不 仅 有 非 ~、 与 &、 或 |， 还 有 


异 或 ^ 和 左右 移 位 。 为 了 大 量 地 使 用 位 运算 , 数 独 的 数据 结构 


1 所 示 ， 


设计 如 图 


单元 格 和 宫 的 编号 是 行 优先 的 。 每 个 单元 


格 有 一 个 整数 (bitLiveCell ) 来 记录 它 的 候选 数 ， 比 如 某 单 


元 格 的 该 数 是 001011001 (二 进 制 )， 表 明 “1”、“4”、 
和 “7” 这 四 个 数字 是 候选 数 。 数 组 bitLivRowDig 是 | 


录 某 行 茶 


[1 5 99 
来 记 
比 如 


个 候选 数 的 


分 布 事 


bitLivRowDig[1][2]=101011000〈 二 进 制 )， 表 明 第 2 行 候选 


数 “3” 分 布 在 第 4、 第 5、 第 7 和 第 9 列 。 其 他 数据 见 图 1 
中 的 注释 , 需要 说 明 的 是 使 用 了 2 个 布尔 变量 solved 和 failed 
表示 当前 解 的 状况 ， 因 为 在 搜索 过 程 中 数 独 可 能 求解 成 功 也 
可 能 求解 失败 ， 还 可 能 求解 结果 不 确定 ， 此 时 需要 进一步 向 


前 搜索 。 


in 


1 class Sudoku { 

2 private: 

3 // 单 元 格 中 的 数字 是 否 确定 
bool fixedCe 

4 // 单 元 格 的 候选 数 ， 一 位 对 应 一 个 数字 

5 // 一 行 中 某 个 匡 选 数 的 分 布 ， 一 位 对 应 一 列 

6 // 一 列 中 某 个 候选 数 的 分 布 ， 

7 // 单 元 中 候选 数 个 数 

8 // 一 行 中 某 个 候选 数 的 个 数 


9 // 一 列 中 某 个 候选 数 的 个 数 


1[81] ; 
bitLiveCell[81]; 


bitLivRowDig[9] [9] ; 


一 位 对 应 一 行 
bitLivColDig[9] 
numLiveCell[81]; 


numLivRowDig[9] 


int numLivColDig[9] [9]; 
10 // 一 宫 中 某 个 候选 数 的 个 数 

int numLivBoxDig[9] [9]; 
11 public: 
12 int values[81] ; // 单 元 格 中 填 入 的 数字 
13 iNt numFixed; // 已 经 确定 的 单元 格 数量 
14 b0ol solved; // 数 独 是 否 成 功 求解 
15 b0ol failed; // 数 独 是 否 求解 失败 

图 1 数 独 数据 结构 中 的 数据 
Fig.1 Variables in Sudoku data structure 


为 了 提高 运行 效率 ， 建 立 了 5 个 全 局 索引 数组 。1)int 


boxid[81]， 单 元 格 所 在 宫 的 索引 ; 2)int boxcell[9][9]， 宫 中 单 
局 部 编号 到 数 独 单元 格 全 局 编号 的 索引 ; 


元 格 
dig2bit[9] ， 数 字 
bit2dig[1<<9]， 对 


3)int 
k 到 对 应 位 数字 1<<(k-1) 的 索引 ; Dint 
应 位 数字 1<<(k-1) 到 数字 的 索引 。 如 果 计 


算 的 是 25x25 数 独 , 这 个 数组 就 太 大 了 , 需要 改 为 内 置 函 数 ， 


二 进 制 数 中 “1” 


基础 


的 个 数 。 


和 法 包括 数 独 的 基础 人 工 求解 策略 由， 
a) 唯 一 余数 法 fxUniqueNumber ; 


具体 包括 : 
除法 一 ， 


b) 交 差 删 


pointingReduction, 如 果菜 个 候选 数 只 出 现在 某 宫 的 一 行 或 一 


列 ， 可 以 删除 该 行 或 该 列 的 其 


除法 二 , boxLineReduction， 如 


列 的 一 个 宫 中 ， 可 以 删除 该 宫 的 其 他 位 置 的 该 候选 数 ，d) 显 
性 占 位 法 ，nakedMultiples ， 如 果 一 个 块 中 的 个 单元 格 只 
被 k 个 候选 数 占 据 ， 可 以 删除 该 块 中 其 
; 6) 隐 性 占 位 法 ，hiddenMultiples ， 如 果 一 个 块 中 的 k 个 
民选 数 只 占据 K 个 单元 格 ， 可 以 删除 这 些 单元 格 中 的 其 他 候 


下 面 以 显 性 


占 位 法 nakedMultiples 为 例 ， 说 明基 础 算法 


他 位 置 的 该 候选 数 ，c) 交 差 删 
果 某 个 候选 数 只 出 现在 某 行 或 


也 单元 格 的 这 些 候选 


的 编程 实现 情况 。 图 2 是 显 性 


5 位 法 的 核心 代码 ， 从 一 行 中 


其 他 单元 格 中 的 这 些 候 选 数 。 


它们 的 列 ， 在 后 


“1” 它 表 示 一 个 候选 数 


挑选 的 ncons 个 单元 格 放 入 数组 让 ,这 个 核心 代码 对 这 ncons 
个 单元 格 进行 判断 ， 如 果 只 被 


“或 ”运算 对 这 ncons 个 候选 数 进行 合 
下 进行 删除 操 
得 一 个 整数 livebit， 从 livebit 中 可 以 提取 最 右边 的 二 进 制 
(第 


ncons 个 候选 数 占据 ， 就 删除 
位 运算 是 比较 适合 这 些 判断 
同时 合并 
合并 后 获 


和 时 要 排除 这 些 列 。 


7 行 )， 然 后 再 从 livebit 中 删 


去 这 个 “1”( 第 8 行 ), 如 果 这 样 的 操作 进行 了 ncons 次 之 后 ， 
livebit==0 意味 着 ncons 个 候选 数 


独 的 当前 解 不 合格 时 ， 


时 会 出 现 少 于 ncons 个 候选 数 占据 


5 据 ncons 个 单元 格 。 当 数 


ncons 个 单元 格 ， 这 时 可 以 置 失 败 标志 (第 12 行 )。 


1 livebit=colbit=0; 
2 for(k=0; k<ncons; k++) { 


4 /合并 单元 格 对 应 的 丈 


5 } 
6 for(k=0; k<ncons; k++) { 
7 /提取 最 右 端的 1 


8 /删除 最 右 端 的 1 


3 /合并 单元 格 的 候选 数 
livebit |= bitLiveCell[ ijk[k] ]; 


1 


colbit |= dig2bit[ ijk[k]%9 ]; 


delbit[k] = (livebit & ~(ivebit-1) ); 


Livebit = livebit & (livebit-1); 


15 cell=r*9+c; 


25 }//if(match) 


9 
10 match=(livebit==0);”// 删 除 后 等 于 0 吗 
11 If(match) { /匹配 成 功 


12 /过 少 的 候选 数 ， 解 不 合格 
if(delbit[ncons-1]==0)return failed=true; 

13 ”for(c=0; c<9; c++){ /循环 列 ， 进 行 候 选 数 删除 

14 if(dig2bit[c]&colbit)continue; // 


16 /这 个 单元 格 已 经 确定 
if(fixedCell[cell])continue; 


17 for(k=0; k<ncons; k++) { /循环 删除 候选 数 
18 /这 个 单元 格 有 这 个 候选 数 
if(bitLiveCell[cell]&delbit[k]) { 

19 numChanges++; /删除 计数 

20 /删除 候选 数 
remCellLive(cell,bit2dig[delbit[k]]); 

21 // 检 验 这 个 单元 格 是 否 可 以 确定 
testLiveCell(cell); 

22 } /if bitLiveCell 

23 } /kk 

24 }hc 


列 被 占据 
/计算 单元 格 编号 


图 2 显 性 占 位 法 核心 代码 及 其 注释 


Fig.2 Main codes and its comments of the naked candidate strategy 
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当 确 定 一 个 单元 格 时 ， 要 删除 对 应 块 中 的 其 他 单元 格 对 


应 的 候选 数 。 每 次 成 功 删 除 一 个 
忆 此 确定 一 个 单元 格 的 函数 是 递归 函数 ， 有 


候选 数 都 检验 对 应 的 单元 格 ， 
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世界 上 最 难 数 独 共 20 例 ( 数 据 集 名 “Extreme”), 包括 Andrew 
Stuart 的 3 例 P0 和 Arto Inkala 的 10 例 (www.aisudoku.com)， 


时 确定 一 个 单元 


格 后 整个 数 独 求解 成 功 。 如 果 在 删除 候选 数 后 ， 单 元 格 的 候 


选 数 为 空 ， 此 时 数 独 无 解 ， 通 过 设 


枝 。 
2 


文 的 
略 求 


一 般 来 说 ， 回 漳 ; 
是 为 了 


融合 人 工 求解 策略 的 回溯 求解 ; 


公历 


坚 ， 它 的 时 间 成 本 是 非常 高 的 。 
的 效率 对 回 溯 法 的 最 终 时 间 
效 地 实施 人 工 求 解 策略 ， 这 也 是 上 一 节 介 绍 数据 结构 和 基础 
算法 的 原因 。 
漳 法 剪 枝 的 时 间 成 本 是 较 高 的 ， 因 此 只 有 


去 会 进行 大 量 的 搜索 


少 搜索 的 分 枝 从 而 提 


失败 标志 failed 及 时 前 


， 很 多 剪 枝 技 术 都 


高 计算 效率 的 技术 nx9。 而 本 


效率 非常 高 才 会 
的 一 个 特点 中， 这 个 特点 很 好 地 支持 了 用 
剪 枝 的 效率 会 非常 
猿 对 非常 少 的 单元 格 就 可 
功 。Andrew Stuart 
。 不 需要 猜 就 可 由 基础 人 工 求解 策 
独 ， 只 需 猜 对 1 个 单元 格 就 可 成 了 
可 以 定义 “2- 级 ”和 “3- 级 ” 数 独 。 到 目前 为 止 
个 “3- 级 ” 数 独 。“2- 级 ” 数 独 的 比例 
收集 了 近 15,000 个 数 独 ， 只 有 
本 身 就 是 对 解 进行 逐步 地 猜 的 过 程 ， 


互 


比较 好 的 效果 。Andrew Stuart 发 现 了 数 独 


可 漳 法 剪 枝 的 方法 是 尝试 对 数 独 进行 基础 的 人 工 求解 策 
剪 梳 的 时 间 成 本 和 剪 枝 
效率 是 非常 关键 的 ， 


因此 必须 高 


剪 枝 的 


高 。 这 个 数 独特 点 


基础 人 工 求解 策略 
就 是 : 数 独 初 盘 只 


完全 由 基础 的 人 工 求 解 策略 求 


法 者 


搜索 就 可 获得 正 


相信 : 搜索 前 进 时 用 基础 的 人 工 求解 集 


根据 


南 的 解 


py a 
只 是 用 这 个 特点 对 


， 后 面 的 实验 也 证 


数 独 进行 难度 分 级 
功 求解 “0- 级 ” 数 


“1- 级 ” 数 独 ， 依 次 


也 非常 低 ， 本 文 的 实验 
37 个 “2- 级 ” 数 独 。 回 济 ; 


这 个 特点 完全 可 以 
4 需 少数 几 步 


男人 二 


YY 


三 利 


融合 人 工 求解 策 
L115,19] 的 框架 基本 相同 
进行 求解 ， 求 解 的 方法 是 基础 的 人 工 求 解 
搂 返 回 ; 


H . 


候选 数 ， 则 回 汶 


3 


Win10， 开 发 了 


op 


e， 


f, 


出 : 终 盘 数 独 


9 


了 是 在 尝试 用 基础 的 人 


求 


arar 
束 


“1- 级 ”及 其 更 难 


求解 成 功 ， 直 


级 别 的 数 独 需 要 用 到 
各 的 回溯 求解 法 与 其 他 下 


9 不 避 区 是 每 次 向 


可 前 搜索 。 该 方法 的 流程 如 图 
也 探讨 本 文 方法 
的 回 渊 法 。 和 常规 蔬 
各 删除 了 部 分 候选 数 的 数 独 


3 所 示 。 


漳 法 的 算 


如 果 处 理 完 所 有 单元 格 ， 返 回 成 功 


， 选 取 一 个 候选 数 最 少 的 单元 格 


c， 从 该 单元 格 顺序 选取 一 个 候选 数 


d， 如 果 没 有 候选 数 


， 返 回 失败 


用 该 候选 数 固定 该 单元 格 
更 新 其 他 单元 的 候选 数 ， 即 
g， 递 归 调 用 回溯 法 


i， 如 果 成 功 ， 返 回 成 功 


j， 如 果 失 败 ， 恢 复数 独到 e 2 


实验 结果 与 分 析 


~ 


CPU， 内 存 16 GB。 


有 11 组 实验 数 提 


] C++11 实现 了 本 文 算法 及 常规 
FF 台 是 Code::Block 16.01， 


失败 ， 换 一 个 候选 数 搜索 ， 如 果 
; 不 确定 是 失败 还 是 成 功 ， 


的 优 务 和 各 种 影响 因素 ， 下 面 


| 


搜索 时 会 对 数 独 
各。 求解 结果 分 


此 时 要 继续 


还 有 几 例 来 自 不 同 论坛 ， 已 经 无 法 追踪 了 。 从 “ 数 独 之 王 ” 

app 中 手工 收集 了 “Easy”“Medium”“Hard” 及 “Very Hard” 
4 个 难度 级 别 各 100 个 数 独 。 下 载 组 合 学 家 Gordon Royle 收 
集 的 17 个 提示 数 的 数 独 〈staffthome.ecm.uwa.edu.au/ 
~00013890/ sudokumin.php )， 共 49,151 个 数 独 (数据 集 名 
“Sul17”)， 从 网 站 sfsudoku.com 下 载 了 2 个 各 包含 50,000 
数 独 的 数据 集 (分别 为 “SS50k-1” 和 “SS50k-2”)。 


选取 候选 数量 少 
的 单元 格 


> 选取 一 个 候选 数 


一 吧 


唯一 余数 法 


了 
交叉 排除 二 | >< 全 确定 >> 
N 
Y 
显 性 占 位 法 | < 全 月 定 >> 
N 
4 
隐 性 占 位 法 | >< 全 而 定 ?>> “>< 正 而 解 盖 > ] 
Y N 


图 3 
Fig. 3. Flowchart of Backtracking Algorithm with Rule-Base Strategies 


融合 人 工 求 解 策 略 的 回溯 法 流程 图 


由 于 求解 “0- 级 ” 数 独 时 不 需要 调用 回溯 法 ， 从 数据 集 
Sul7、SS50k-1 和 SS50k-2 中 剔除 “0- 级 ” 数 独 形成 3 个 更 
小 的 数据 集 Sul7hard、SS50k-1h 和 SS50k-2h, 所 有 这 些 数据 
集 的 详细 信息 如 表 1 所 示 。 需 要 说 明 的 是 ， 本 文 的 基础 人 工 


法 描述 如 下 : 


I 除 相 同 块 中 的 其 他 单元 的 该 候选 数 


前 的 状态 ， 转 到 c 


操作 系统 是 


昌 集 , 从 互联 网 上 扫 


是 3.4 GHz 


集 的 不 同人 宣称 的 


策略 比 Andrew Stuart 定义 2 的 更 基础 , 它 不 包括 3 数 占 位 法 
和 4 数 占 位 法 ;， 这样 做 是 为 了 减少 前 枝 成 本 。 


表 1 实验 用 数据 集 及 其 Andrew Stuart 难度 分 级 
Table 1 Experiment dataset and its andrew stuart difficulty level 
数据 集 数 独 数量 ”0- 级 数量 1- 级 数量 2- 级 数量 3- 级 数量 

Extreme 20 0 1 18 1 
Veryhard 100 47 53 1 0 

Hard 100 76 24 0 0 
Medium 100 97 3 0 0 

Easy 100 100 0 0 0 

Sul7 49,151 41,588 7,547 16 0 
Sul7hard 7,563 0 7,547 16 0 
SS50k-1 50,000 39,045 10,953 2 0 
SS50k-2 50,000 38,900 -11,100 0 0 
SS50k-1h 10,955 0 10,953 2 0 
SS50k-2h 11,100 0 11,100 0 0 


为 了 更 好 地 探讨 方法 的 优 劣 和 特点 ， 共 实现 了 4 种 回溯 
法 。a)“ 回 溯 法 A”， 即 融合 人 工 求 解 策略 的 回溯 法 ， 后 面 的 
图 表 中 用 “Fuse” 注 释 :b)“ 回 渊 法 B” 上 一 节 介 绍 的 常规 


加 
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可 漳 法 , 由 于 选择 单元 格 和 更 新 候选 数 , 用 “UpdSel” 注 释 ;c) 高 难度 数 独 的 Top95 数据 集 ， 本 文 四 种 回调 法 的 平均 计算 时 
“回溯 法 C”, 只 顺序 选取 单元 格 ,但 更 新 候选 数 , 用 “ Update” 间 分 别 为 : 0.298 ms、0.651 ms、13.758 ms 和 232.747ms， 其 
注释 :4) 回溯 法 D”, 挑 选单 元 格 但 不 更 新 候选 数 , 用 “Select” ”中 回溯 法 D (Select) 与 文献 [19] 中 散 点 图 的 数据 非常 接近 ， 


注释 。4 种 回调 法 、11 种 数据 集 的 求解 数 独 的 平均 运行 时 间 ”这 也 说 明了 这 两 者 的 回溯 法 是 相同 的 ， 而 回溯 法 A (Fuse) 
如 表 2 所 示 。 是 速 了 将 近 1000 倍 。 
表 2 不 同 回溯 法 的 平均 求解 计算 时 间 /ms 信息 焙 选 择 候选 数 的 回溯 法 0 平均 计算 时 间 为 3 一 6 
Table 2 ”Average running time of various backtracking methods /ms ms (1.75GHz CPU)， 数 据 集 是 从 网 站 www.websudoku.com 
数据 集 A B C D 性 集 的 “easy”“medium”“hard” 和 “evil” 四 个 难度 级 别 数 
由 (Fuse) (UpdSel) (Update) (Select) 据 。 本 文 相对 应 的 是 “easy”“medium”、“hard” 和 “veryhard” 
Extreme 2.000 4.250 56.275 7481.730 四 个 数据 集 ， 回 溯 法 A (Fuse) 的 平均 计算 时 间 为 0.05 一 0.1 
Veryhard 0.102 0.100 0.251 1.115 ms (3.4 GHz CPU) ,考虑 CPU 的 不 同 ， 回 调 法 A〈Fuse) 的 
Hard 0.066 0.064 0.065 0.072 计算 时 间 只 需 信 息 粒 回 溯 法 的 3%， 即 使 回溯 法 D (Select) 
Medium 0.055 0.057 0.055 0.057 的 计算 时 间 也 不 超过 信息 业 回 弯 法 的 40%。 由 于 本 文 四 种 回 
Easy 0.054 0.054 0.054 0.054 溯 法 都 是 在 使 用 基础 人 工 策略 删 去 部 分 候选 数 后 调用 ， 因 此 
Sul7 0.085 0.127 1.504 41.816 性 能 比 信息 烂 回 渊 法 高 是 由 两 个 因素 造成 : 初始 候选 数 的 减 
Sul7hard 0.150 0.410 9.825 261.895 少 和 编程 实现 的 高 效 ， 而 回溯 法 A (Fuse) 的 前 枝 性 能 进 一 
SS50k-1 0.071 0.067 0.084 0.251 步 提升 了 性 能 。 
SS50k-2 0.070 0.068 0.084 0.296 3.2 回溯 法 的 递归 深度 和 递归 次 数 
SS50k-lh 0.124 0.115 0.204 0.960 kt 有 17 个 提示 数 的 数 独 是 提示 数 最 少 的 四, 但 是 根据 胡 
工 SS50k-2h 0.128 0.114 0.191 1.154 究 与 分 析 ， 最 少 提示 数 数 独 具 有 分 布 广泛 性 的 特点 LU。 针 对 
El 从 表 2 可 以 看 出 回 淹 法 的 几 个 特点 : a) 对 于 难度 级 别 不 ”Sul7hard 数据 集 ， 融 合 人 工 求 解 策略 的 回溯 法 的 递归 深度 和 
GS 大 的 数 独 〈easy/medium/hard)， 各 种 回溯 法 的 计算 效率 几乎 ” 递归 次 数 见 表 3， 表 3 中 的 数据 证 实 了 只 需 少 数 几 次 猜 对 就 
= 没有 差别 ;b) 对 于 难度 级 别 非常 大 的 数 独 (extreme/Sul7hard)， 可 以 用 基础 人 工 求解 策略 成 功 求解 。 由 于 每 次 都 选择 候选 数 
©O 各 种 回溯 法 的 计算 效率 有 本 质 的 区 别 ， 回 溯 法 A (Fuse) 的 ” 最 少 的 单元 格 进 行 搜索 ， 不 妨 假设 每 次 猜测 都 是 从 2 个 候选 
OO 计算 时 间 只 需 回 溯 法 D (Select) 的 0.05%, 更 新 候选 数 相当 数 中 随机 选 一 个 ， 有 50% 的 概率 选 对 ， 选 对 后 能 用 基础 人 工 
CN 于 提前 剪 枝 ， 这 样 与 仅仅 选择 单元 格 相 比 提高 了 剪 枝 效 率 ， 求解 策略 成 功 求解 的 概率 , 从 表 3 深度 为 1 的 数据 (21.39%) 
TT 但 还 是 联合 使 用 效果 更 好 ;co 回溯 法 A (Fuse) 与 回溯 法 B 推测， 估计 大 概 有 43% 的 概率 。 用 这 2 个 概率 和 平均 递归 次 
CE (UpdSel) 相 比 , 在 求解 高 难度 数 独 (Sul7/Sul7hard/Extreme) ” 数 〈9.8) 来 估算 ， 只 需 2 一 3 次 猜 对 了 就 可 用 基础 人 工 求解 
时 的 优势 明显 ,求解 其 他 数 独 只 是 略微 多 出 不 到 10% 的 计算 。 策略 求解 成 功 ， 这 与 Andrew Stuart 的 结论 9 吻合。 
时 间 。 其 他 常规 回溯 法 都 需要 递归 到 最 后 一 个 单元 格 ， 所 以 递 
3.1 与 其 他 文献 结果 比较 归 深 度 一 般 都 在 60 以 上 ; 远 高 于 回调 法 A (Fuse) 的 递归 深 


稀疏 优化 求解 法 的 论文 [1 和 中 列 出 了 三 种 方法 的 平均 计 ” 度 。 所 以 表 3 中 没有 列 出 回溯 法 B (UpdSel) 的 递归 深度 ， 
算 时 间 ， 约 束 规划 法 400 s，Sinkhorn 法 2 一 10 s， 稀 玻 优化 它 的 递归 次 数 比 回溯 法 A (Fuse) 高 出 了 3 个 量 级 以 上 ， 这 


法 0.1s， 与 本 文 方法 相差 较 大 ， 没 有 可 比 性 。 是 常规 回溯 法 计算 性 能 不 如 融合 人 工 求 解 策略 的 回溯 法 的 主 
候选 数 优化 法 (9 与 回溯 法 A (Fuse) 非常 相似 ， 主 要 有 ”要 原因 。 
三 点 不 同 : a) 两 个 方法 的 核心 思想 不 同 ， 回 溯 法 A (Fuse) 表 3 回溯 法 的 递归 深度 和 递归 次 数 统计 (Sul7hard) 
利用 数 独 的 特点 , 减少 搜索 深度 ,候选 数 优化 法 是 删除 候选 数 Table 3 Recursive depth and recurrence statistics of backtracking 
从 而 减少 分 枝 ;b) 回 溯 法 A (Fuse) 会 在 向 前 搜索 时 反复 用 基 methods 
础 人 工 策略 分 析 数 独 直至 无 法 删除 候选 数 ， 候 选 数 优 化 法 只 可 漳 法 A(Fuse) 可 漳 法 B(UpdSel) 
是 使 用 基础 人 工 策略 一 次 ;c) 从 图 3 可 以 看 出 ， 回 溯 法 A 0 、 百 分 
(Fuse》 尽 早 地 判断 数 独 解 是 成 功 还 是 失败 ， 只 有 不 确定 时 TT TO I 
才 向 前 搜索 ， 候 选 数 优 化 法 没有 做 这 样 的 处 理 。 文 献 [15] 选 1 21.39 1 21.39 2,000 17.31 
了 192 例 数 独 ， 相 当 于 本 文 的 “Veryhard” 数 据 集 ， 计 算 时 2 45.93 2 42.88 5,000 14.09 
间 在 10 一 22 ms (2.53 GHz CPU)， 男 外 ， 具 体 给 出 了 2 个 例 3 15.11 3 14.11 10,000 12.84 
子 , 计算 时 间 分 别 为 16ms 和 10ms。 与 之 相对 ,回溯 法 A(Fuse) 4 6.64 4 6.17 20,000 13.68 
计算 “Veryhard” 的 平均 时 间 为 0.102ms (3.4GHz CPU) ,2 5 .17 5 3.15 40,000 ”13.34 
个 例子 的 计算 时 间 分 别 为 0.037ms 和 0.215ms。 这 样 大 的 差 5+ 7.75 5+ 12.3 40,000+ ”28.73 
别 不 可 能 纯粹 由 方法 的 不 同 造 成 ,与 编程 实现 还 有 很 大 关系 ， 平均 值 5.4 9.8 60,087 
可 惜 文 献 [15] 没 有 给 出 数据 结构 和 基础 算法 。 最 大 值 23 4,230 5,815,054 
可 济 法 D (Select) 与 Chi 的 回溯 法 09 相 同 。Chi 从 “easy” ”3.3 ”算法 复杂 度 分 析 
“medium” 和 “hard” 三 个 级 别 中 删除 “0- 级 ” 数 独 形成 三 现 有 文献 的 数 独 求解 法 都 是 针对 9x9 数 独 的 0120， 因 此 
个 数据 集 ， 平 均 计 算 时 间 为 7~9 ms (3.4 GHz CPU); 这 样 ” 都 没有 进行 算法 复杂 度 分析 。 数 独 求解 问题 是 NP 问题 巴 ， 


的 数据 集 相当 于 数据 集 SS50k-lh 和 SS50k-2h, 本 文 回溯 法 A ” 数 独 求解 法 的 算法 复杂 度 比较 高 。 男 一 方面 ， 数 独 数据 分 布 

(Fuse) 的 计算 时 间 为 0.1 ms (3.4GHz CPU)， 相 同 回 济 法 的 随机 性 较 大 时， 导致 算法 复杂 度 的 分 析 比 较 困 难 。 
的 计算 时 间 为 1 ms。 另 外 ，Chi 从 网 站 warwick.ac.uk/ 为 了 分 析 算 法 复杂 度 ， 假 设 融 合 人 工 求解 策略 的 回溯 法 
fac/sci/moac/people/students/peter_cock/python/sudoku 下 载 了 的 递归 深度 是 O(N)， 其 中 N 为 数 独 和 矩阵 的 行 数 。 合 理 分 布 
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的 N 个 单元 格 可 以 影响 到 所 有 单元 格 , 因此 这 种 假设 有 它 的 
合理 性 ， 而 且 表 3 中 的 数据 也 表明 回溯 法 A(Fuse) 的 递归 深 
度 与 N 同 量 级 。 由 于 每 次 搜索 时 都 会 选取 候选 数 最 少 的 单元 
此 分 枝 数 绝 大 部 分 是 2， 少 数 是 3， 极 少数 会 出 现 
4, 不 妨 设 分 枝 数 是 和 。 人 工 求解 策略 复杂 度 最 高 的 是 2 数 显 
性 占 位 法 ， 它 要 对 每 行 每 列 每 襄 的 2 单元 格 组 合 进行 检查 ， 

匹配 后 要 对 块 中 其 他 单元 格 进行 处 理 ， 因 此 它 的 复杂 度 是 
ON)。 综 合 这 些 分 析 ， 可 以 得 到 回溯 法 A(Fuse) 的 算法 复杂 
度 为 


洗 

人 
和 
六 | 


I 


O(N )x 4°" =O(Nia") (1) 

为 了 验证 算法 复杂 度 ,对 44 种 16x16 的 数 独 进行 了 求解 ， 

数 独 数据 是 从 网 站 (magictour.free.fr/sudoku.htm ) 获得 。 求 
解数 独 的 平均 时 间 是 224 ms， 取 求解 9x9 数 独 的 平均 时 间 是 
0.1ms, 可 以 推出 回溯 法 A(Fuse) 的 时 间 复 杂 度 是 O(N”2.35”)， 
2.35 与 分 枝 数 非常 吻合 ， 表 明 算法 复杂 度 分 析 是 合理 的 。 依 
据 这 个 算法 复杂 度 ， 求 解 一 个 20x20 的 数 独 需 要 138s。 作 为 
比较 ， 回 渊 法 B(UpdSel) 需 要 递归 到 最 后 一 个 单元 格 ， 因 此 
搜索 深度 是 OOV?) 。 依 据 相 同 分 析 过 程 ， 可 以 获得 它 的 算法 


复杂 度 是 O(Wa”)。 回 溯 法 B(UpdSel) 求 解 16x16 数 独 的 平均 


QI 时 间 是 109s, 几 乎 是 回溯 法 A (Fuse) 的 500 倍 。 但 是 高 阶 数 
CD ” 独 的 论文 还 不 多 ， 在 其 他 文献 中 还 没有 发 现 这 方面 的 数据 。 
于 3.4 Su17 数据 集 的 广泛 代表 性 

© 从 表 1 可 以 看 出 ，2- 级 难度 数 独 是 非常 稀少 ， 除 非 目 的 
@C 非常 明确 地 搜寻 ， 获 得 的 概率 是 很 低 的 ， 这 也 是 不 少 人 热衷 
CN 于 宣称 发 现世 界 最 难 数 独 Pol 的 原因 。 这 些 “ 世 界 最 难 的 数 独 ” 
TT 也 确实 名 副 其 实 , “Extreme” 数 据 集 只 有 一 个 1- 级 难度 数 独 ， 
CO ”而且 这 个 数 独 在 所 有 1- 级 难度 数 独 中 是 最 难 的 ， 因 为 只 有 狂 
二 中 唯一 的 一 个 单元 格 才能 用 基础 人 工 求解 策略 求解 成 功 。 而 
I 在 其 他 数据 集中 共有 149,591 个 数 独 , 只 有 18 个 2- 级 难度 数 
和 独 ， 其 中 Sul7 就 占 16 个 。 而 且 Sul7 的 工 级 难度 数 独 比例 


由 不 低 ， 大 略 15%。 因 此 ，Su17 数据 集 对 不 同 难度 的 数 独 具 
有 更 好 的 多 样 性 。 
从 求解 时 间 上 看 ，Su17 数据 集 更 广泛 的 分 布 。 在 全 
部 149,611 个 数 独 中 ， 回 调 法 A ee 求解 时 间 超 过 10ms 
的 只 有 4， 其 中 “Extreme”1 个 ,“Su17”3 个 ; 求解 时 间 在 
[5,10] 之 间 的 共有 9 个 ， 其 中 “Extreme”2 个 ,“Su17”7 个 。 
求解 时 间 超 过 lms 的 共有 47 个 ， 全 部 集中 在 “Extreme ”和 
“Sul7”2 个 数据 
从 回溯 法 A〈Fuse) 的 递归 深度 看 , “Sul7hard” 也 比 
“SS50k-l1h” 和 “SS50k-2h” 分 布 广 ， 分 布 结果 见 图 4。 虽 
然 回 调 法 A (Fuse) 的 递归 深度 分 布 较 广 ， 但 超过 10 的 只 有 
157 个 ， 贞 2 又， 超过 16 只 有 17 个 ， 占 0,2%。 与 之 相 比 ， 
“SS50k-lh” 的 递归 深度 不 超过 10,“SS50k-2h” 的 不 超过 9。 
“Sul7” 数 据 集 不 仅 各 个 方面 代表 性 比较 好 ， 而 且 容 易 
获取 ， 数 独 数量 也 足够 ， 现 共有 49,151 个 (2018.7 数据 )。 
寻 此 ， 建 议 作 为 数 独 求解 算法 研究 的 标准 数据 集 。 


4 ”结束 语 


绝 大 部 分 数 独 只 要 猜 对 了 一 两 个 单元 格 的 数字 就 可 以 用 
最 基础 的 人 工 策略 求解 成 功 。 这 些 最 基础 的 人 工 求 解 策略 包 
括 : 唯一 余数 法 、 交 叉 删 除法 、 显 性 对 数 占 位 法 和 隐 性 对 数 
占 位 法 。 因 此 回溯 法 搜索 前 进 时 用 基础 的 人 工 策略 进行 求解 ， 
求 
只 
目 


滁 


o 


Ea 


求解 结果 分 为 求解 成 功 、 求 解 失 败 和 求解 不 确定 3 种 情况 ， 
有 在 求解 不 确定 时 才 继 续 向 前 搜索 ， 从 而 达到 高 效 剪 枝 的 
的 。 另 外 , 在 基础 人 工 求解 算法 实施 方面 采用 大 量 位 运算 。 
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4 融合 人 工 求解 策略 的 回溯 法 的 递归 深度 分 布 
Fig.4 Recursive depth distribution of backtracking method with 
rule-base strategies 

量 实验 结果 表明 : 对 于 绝 大 部 分 数 独 ， 平 均 计 算 时 间 

不 超过 0.15 ms， 对 于 那些 极端 困难 的 数 独 平 均 求解 时 间 为 

2ms。 通 过 实验 还 发 现 : 提示 数 最 少 的 数 独 数据 集 Sul7 具有 

各 方面 良好 的 多 样 性 ， 建 议 作为 数 独 求解 算法 的 标准 测试 用 

数据 集 。 

融合 人 工 求解 策略 的 回溯 法 在 平均 求解 性 能 方面 已 经 较 

好 ， 如 何 降低 最 坏 情况 下 的 计算 时 间 还 有 待 于 进一步 研究 。 

另外 , 挖掘 出 更 多 的 2- 级 难度 和 3- 级 难度 数 独 也 许 是 一 个 值 

得 研究 的 问题 ， 也 许可 以 促进 数 独 在 其 他 领域 的 应 用 。 
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